Arbeidsfysiologisk metode og Statistikk

Statistisk samvariasjon

Samvariasjon

Samvariasjon

En modell for gjennomsnittet

  • En enkel regresjonsmodell er en modell for gjennomsnittet, hvor gjennomsnittet bestemmes av uavhengige variabler.
  • Den enkleste regresjonsmodellen kan beskrives som \(y = \beta_0\), en slik modell beskriver gjennomsnittet ved skjæringspunktet

En modell for gjennomsnittet

  • Når vi har en uavhengig variabel i modellen for gjennomsnittet beskriver vi \(y\) som en funksjon av \(x\): \(y_i=\beta_0 + \beta_1 x_i\)
  • Modellen gir oss \(y_i\) når vi setter den uavhengige variabelen til \(x_i\).

En modell for samvariasjon

  • Stigningstallet i en regresjonsmodell gir oss et mål på samvariasjon, hvor mye endres \(y\) (\(\Delta y\)) når vi endrer \(x\)?
  • \(y=\beta_0 + \color{red}{\beta_1 \times x}\), når vi ønsker å vite \(\Delta x = 10\), \(y=\beta_0 + \color{red}{\beta_1 \times 10}\)

Modeller for gjennomsnittet og samvariasjon

En kategorisk uavhengig variabel

  • I en modell hvor \(x\) er en kategorisk variabel er \(x = 0\) referansenivå, og vi beskriver gjennomsnitt i f.eks. “gruppe A”
  • Når vi setter \(x = 1\) beskriver vi gjennomsnitt i “gruppe B”. Stigningstallet tilsvarer forskjell mellom gruppene.

Flere uavhengige variabler

  • Flere uavhengige variabler kan brukes for å gi en betinget samvariasjon

Regresjonsmodellen

  • En regresjonsmodell kan gi oss en beskrivelse av gjennomsnittet som en funksjon av en eller flere variabler.
  • Regresjonsmodellen gir oss en beskrivelse av samvariasjon mellom en avhengig variable og flere uavhengige variabler.
  • Uavhengige variabler kan være kontinuerlige eller kategoriske…

Hvordan tilpasses en regresjonsmodell?

Tilpasse en regresjonsmodell

Flere mulige modeller

Tilpassning av en regresjonsmodell

  • En vanlig metode for å tilpasse en regresjonsmodell er minste kvadraters metode
  • Metoden finner sammenhengen mellom en eller flere uavhengige variabler og en avhengig variabel ved å minimere avvik fra modellgjennomsnitt til observasjoner
  • Avviket beregnes som summen av avstand i kvadrat (variansen), vi finner altså den modell som har de “minste kvadratene”.

Fra regresjon til korrelasjon

Korrelasjonen som mål på sammenhenger mellom to konituerlige variabler

Figure 1: Tre forskjellige korrelasjoner, en negativ, en positiv og en svak.

Korrelasjon og antagelser

Figure 2: Avvik fra antagelser om dataene kan gi feilaktige tolkninger av en regresjonskoeffisient

Korrelasjoner

  • En korrelasjonsanalyse av to kontinuerlige variabler kan gjøres ved hjelp av Pearson’s korrelasjonskoeffisient
  • I denne analysen har vi noen antagelser:
    • Symmetrisk fordeling av dataene, ingen “outlier”
    • Lineær samvariasjon mellom variablene
  • Antagelser kan bekreftes ved hjelp av en grafisk analyse

Regresjonsmodellen og andre statistiske metoder

Valg av statistiske metoder for samvariasjon


Parab S, Bhalerao S. Choosing statistical test. Int J Ayurveda Res. 2010 Jul;1(3):187-91. doi: 10.4103/0974-7788.72494. PMID: 21170214; PMCID: PMC2996580.

Parametriske og ikke-parametriske metoder for samvariasjon

  • En parametrisk metode har noen antagelser om fordeling av data, f.eks. antar vi at feilleddet i en regresjonsmodell følger en normalfordeling med gjennomsnitt 0.
  • En ikke-parametrisk metode gjennomføres på data hvor avstand mellom datapunkter er erstattet av rangering…
  • opprinnelig fordeling av data erstattes og modellen gir oss gjennomsnitt av rangerte data

Figure 3: Avvik fra antagelser om dataene kan gi feilaktige tolkninger av samvariasjon

Generaliserte lineære modeller

Regresjonsmodellen er fleksibel!

  • En enkel, lineær regresjonsmodell analyserer en kontinuerlig avhengig variabel
  • For å analysere andre typer av utfall kreves en forandring av regresjonsmodellen
  • En modell som gir mulighet å analysere andre typer av variabler kalles for en generalisert regresjonsmodell

Alder og hjertesymdom

Figure 4: Bruk av lineær regresjon for å beskrive binære data.

Alder og hjertesykdom, alderskategorier

Figure 5: Bruk av alderskategorier for å beskrive forekomst av hjertesykdom. Hver punkt representerer prosentandeler av aldersgruppen med hjertesykdom.

Alder og hjertesykdom, analysert med en logistisk regresjonsmodell

Figure 6: Bruk av en logistisk regresjonsmodell for å beskrive forekomst av hjertesykdom. Kurven representere modellen og hver punkt representerer proporsjoner med hjertesykdom per aldersgruppe.

Odds, oddsratio og risiko

Figure 7: Et enkelt data sett med en binær variabel kan sammenstilles i figurform og som et forhold mellom antall positive utfall (y=1) og det totale antallet observasjoner. Hvis vi lager en enkel logistisk regresjonsmodell over dataene finner vi at log-odds (0.4055) tilsvarer en odds på 1.5 og en sannsynlighet for utfallet på 0.6 (risiko).

Generaliserte lineære